道路车辙是严重的道路障碍,可能导致早期和昂贵的维护成本的道路过早失败。在过去的几年中,正在积极进行使用图像处理技术和深度学习的道路损害检测研究。但是,这些研究主要集中在检测裂缝,坑洼及其变体上。很少有关于探测道路的研究。本文提出了一个新颖的道路车辙数据集,其中包括949张图像,并提供对象级别和像素级注释。部署了对象检测模型和语义分割模型,以检测所提出的数据集上的道路插道,并对模型预测进行了定量和定性分析,以评估模型性能并确定使用拟议方法检测道路插道时面临的挑战。对象检测模型Yolox-S实现了61.6%的Map@iou = 0.5,语义分割模型PSPNET(RESNET-50)达到54.69,精度为72.67,从而为将来的类似工作提供了基准的准确性。拟议的道路车辙数据集和我们的研究结果将有助于加速使用深度学习发现道路车辙的研究。
translated by 谷歌翻译
数据文章介绍了路线损坏数据集RDD2022,其中包括来自六个国家,日本,印度,捷克共和国,挪威,美国和中国的47,420条道路图像。图像已注释了超过55,000个道路损坏的实例。数据集中捕获了四种类型的道路损坏,即纵向裂缝,横向裂纹,鳄鱼裂纹和坑洼。设想注释的数据集用于开发基于深度学习的方法以自动检测和对道路损害进行分类。该数据集已作为基于人群传感的道路伤害检测挑战(CRDDC2022)的一部分发布。 CRDDC2022挑战邀请了来自全球的研究人员提出解决方案,以在多个国家 /地区自动道路损害检测。市政当局和道路机构可以使用RDD2022数据集,并使用RDD2022培训的模型用于低成本自动监测道路状况。此外,计算机视觉和机器学习研究人员可能会使用数据集对其他类型的其他基于图像的应用程序(分类,对象检测等)进行不同算法的性能。
translated by 谷歌翻译
本文探讨了时间视频接地(TVG)的任务,在该任务中,给定未修剪的视频和查询句子,目标是在提供的自然语言查询描述的视频中识别和确定动作实例的时间界。最近的作品通过使用大型预训练的语言模型(PLM)直接编码查询来解决此任务。但是,很难隔离改进的语言表示的影响,因为这些作品还提出了视觉输入的改进。此外,这些PLM大大增加了训练TVG模型的计算成本。因此,本文研究了PLM在TVG任务中的影响,并根据适配器评估了NLP参数效率培训替代方案的适用性。我们将流行的PLM与选择现有方法和测试不同的适配器相结合,以减少其他参数的影响。我们在三个具有挑战性的数据集上的结果表明,当TVG模型对该任务进行微调时,可以从PLM中受益匪浅,并且适配器是完全微调的有效替代方法,即使它们并不适合我们的任务。具体而言,适配器有助于节省计算成本,从而使PLM集成在较大的TVG模型中,并提供与最先进模型相当的结果。最后,通过对TVG中不同类型的适配器进行基准测试,我们的结果阐明了哪种适配器最适合每个研究的情况。
translated by 谷歌翻译
自从Dong等人的第一个成功以来,基于深度学习的方法已在单像超分辨率领域中占主导地位。这取代了使用深神经网络的传统基于稀疏编码方法的所有手工图像处理步骤。与明确创建高/低分辨率词典的基于稀疏编码的方法相反,基于深度学习的方法中的词典被隐式地作为多种卷积的非线性组合被隐式获取。基于深度学习方法的缺点是,它们的性能因与训练数据集(室外图像)不同的图像而降低。我们提出了一个带有深层字典(SRDD)的端到端超分辨率网络,在该网络中,高分辨率词典在不牺牲深度学习优势的情况下明确学习。广泛的实验表明,高分辨率词典的显式学习使网络在维持内域测试图像的性能的同时更加强大。
translated by 谷歌翻译
用单个机器人手抓住各种大小和形状的各种物体是一项挑战。为了解决这个问题,我们提出了一只名为“ F3手”的新机器人手,受人食指和拇指的复杂运动的启发。 F3手试图通过将平行运动手指和旋转运动手指与自适应功能结合在一起来实现复杂的人类样运动。为了确认我们的手的性能,我们将其附加到移动操纵器 - 丰田人支持机器人(HSR),并进行了掌握实验。在我们的结果中,我们表明它能够掌握所有YCB对象(总共82个),包括外径的垫圈小至6.4mm。我们还构建了一个用于直观操作的系统,并使用3D鼠标掌握了另外24个对象,包括小牙签和纸夹以及大型投手和饼干盒。即使在不精确的控制和位置偏移量下,F3手也能够在抓住98%的成功率方面取得成功率。此外,由于手指的适应性功能,我们展示了F3手的特征,这些特征促进了在理想的姿势中抓住诸如草莓之类的软物体。
translated by 谷歌翻译
多尺度处理对于图像处理和计算机图形至关重要。光环是多尺度处理中的核心问题。通过扩展Laplacian金字塔以具有边缘保留特性,几种边缘保护分解可以解决局部拉普拉斯滤波(LLF)。它的处理成本很高;因此,提出了快速LLF的近似加速度,以线性插值多个拉普拉斯金字塔。本文通过傅立叶系列扩展进一步提高了精度,称为傅立叶LLF。我们的结果表明,对于相同数量的金字塔,傅立叶LLF具有更高的精度。此外,傅立叶LLF表现出用于内容自适应过滤的参数自适应性能。该代码可在以下网址获得:https://norishigefukushima.github.io/gaussianfourierpyramid/。
translated by 谷歌翻译
我们提出了Locommer,一种基于变压器的视频接地模型,其在恒定的存储空间中运行,无论视频长度如何,即帧数。 Locommer专为任务而设计,在那里需要处理整个长视频,并在其核心贴上两个主要贡献。首先,我们的模型包含一种新的采样技术,将输入要素序列分成固定数量的部分,并使用随机方法选择每个部分的单个特征,这允许我们获得代表视频内容的特征样本集在手中的任务,同时保持内存占用空间。其次,我们提出了一种模块化设计,将功能分开,使我们能够通过监督自我关注头来学习归纳偏差,同时还有效利用预先接受训练的文本和视频编码器。我们在相关的基准数据集中测试我们的建议,以进行视频接地,表明该表现形式不仅可以实现优异的结果,包括在YouCookii上的最先进的性能,也可以比竞争对手更有效,并且它一直有效在平均工作的情况下,最新工作的表现,均值较大,最终导致Chardes-STA的新的最先进的性能。
translated by 谷歌翻译
为了保护热带森林生物多样性,我们需要能够可靠,便宜地和规模地检测它。通过机器学习方法从被动录制的SoundScapes检测自动化物种是对此目标的有希望的技术,但它受到大型训练数据集的必要性。在婆罗洲的热带森林中使用Soundcapes和通过转移学习创建的卷积神经网络模型(CNN),我们调查I)最低可行训练数据集规模,用于准确预测呼叫类型('Sonotypes')和II)的程度数据增强可以克服小型训练数据集的问题。我们发现甚至相对较高的样本尺寸(每个呼叫类型)导致平庸的精度,然而,无论分类学组或呼叫特征如何,数据增强都会显着提高。我们的研究结果表明,即使对于具有许多罕见物种的小型Sountscape的项目,转移学习和数据增强可以使用CNN来分类物种的发声。我们的开源方法有可能使节约计划能够通过在生物多样性的自适应管理中使用Soundscape数据来实现更有证据。
translated by 谷歌翻译
灵巧的操纵仍然是机器人技术中的一个空缺问题。为了协调研究界为解决这个问题的努力,我们提出了共同的基准。我们设计和构建了机器人平台,该平台托管在MPI上供智能系统托管,可以远程访问。每个平台由三个能够敏捷物体操纵的机器人手指组成。用户能够通过提交自动执行的代码(类似于计算群集)来远程控制平台。使用此设置,i)我们举办机器人竞赛,来自世界任何地方的团队访问我们的平台以应对具有挑战性的任务ii)我们发布了在这些比赛中收集的数据集(包括数百个机器人小时),而我们为研究人员提供了访问自己项目的这些平台。
translated by 谷歌翻译
We propose a new regularization method based on virtual adversarial loss: a new measure of local smoothness of the conditional label distribution given input. Virtual adversarial loss is defined as the robustness of the conditional label distribution around each input data point against local perturbation. Unlike adversarial training, our method defines the adversarial direction without label information and is hence applicable to semi-supervised learning. Because the directions in which we smooth the model are only "virtually" adversarial, we call our method virtual adversarial training (VAT). The computational cost of VAT is relatively low. For neural networks, the approximated gradient of virtual adversarial loss can be computed with no more than two pairs of forward-and back-propagations. In our experiments, we applied VAT to supervised and semi-supervised learning tasks on multiple benchmark datasets. With a simple enhancement of the algorithm based on the entropy minimization principle, our VAT achieves state-of-the-art performance for semi-supervised learning tasks on SVHN and CIFAR-10.
translated by 谷歌翻译